Hadoop Installation এবং Configuration

Big Data and Analytics - হাদুপ (Hadoop)

476

Hadoop ইন্সটলেশন এবং কনফিগারেশন হল Hadoop ক্লাস্টার সেটআপ করার প্রাথমিক পদক্ষেপ, যা ডিস্ট্রিবিউটেড ডেটা প্রসেসিং এবং স্টোরেজ সক্ষম করার জন্য প্রয়োজন। এখানে, আমরা হাদুপ ইন্সটলেশন এবং কনফিগারেশন প্রক্রিয়া সম্পর্কে বিস্তারিত আলোচনা করব।

Hadoop Installation

Hadoop ইনস্টল করতে হলে কিছু প্রাথমিক শর্ত পূরণ করতে হবে, যেমন Java ইনস্টল করা এবং সিস্টেমের নির্দিষ্ট কনফিগারেশন তৈরি করা। নীচে দেওয়া হলো হাদুপ ইনস্টল করার জন্য প্রয়োজনীয় স্টেপগুলি।

১. প্রাথমিক শর্তাবলী পূরণ

Java: Hadoop চলানোর জন্য Java 8 বা তার পরবর্তী সংস্করণ ইনস্টল থাকতে হবে। আপনি নিম্নলিখিত কমান্ড ব্যবহার করে Java ইনস্টল করতে পারেন:
```
sudo apt update
sudo apt install openjdk-8-jdk
```
SSH (Secure Shell): Hadoop নোডগুলোতে একে অপরের সাথে যোগাযোগ করতে SSH প্রোটোকল ব্যবহার করে। তাই SSH কনফিগার এবং ক্লাস্টারের সকল নোডে পাবলিক কী-সেটআপ প্রয়োজন।
```
ssh-keygen -t rsa -P ""
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
```

২. Hadoop সফটওয়্যার ডাউনলোড করা

Hadoop এর সর্বশেষ ভার্সন Apache Hadoop ওয়েবসাইট থেকে ডাউনলোড করা যেতে পারে। উদাহরণস্বরূপ, আপনি Hadoop 3.x ভার্সন ডাউনলোড করতে পারেন।

Hadoop ডাউনলোড করার জন্য নিচের কমান্ড ব্যবহার করুন:
```
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.x.x/hadoop-3.x.x.tar.gz
tar -xzvf hadoop-3.x.x.tar.gz
```
ডাউনলোড শেষে, হাদুপ ফোল্ডারটি কোথাও একটি উপযুক্ত লোকেশনে সরিয়ে দিন, যেমন /usr/local/hadoop।

৩. পরিবেশ ভেরিয়েবল সেটআপ

Hadoop ইনস্টলেশন করার পর, পরিবেশ ভেরিয়েবল (environment variables) কনফিগার করতে হবে যাতে Hadoop সঠিকভাবে কাজ করতে পারে। আপনি .bashrc ফাইলে Hadoop এর পাথ যোগ করতে পারেন:

nano ~/.bashrc

এরপর ফাইলের শেষে নিচের লাইনগুলো যোগ করুন:

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

এটি পরিবেশ ভেরিয়েবল সেটআপ করবে এবং পরে source ~/.bashrc কমান্ড দিয়ে পরিবর্তনগুলো কার্যকরী করতে হবে।

Hadoop Configuration

Hadoop ইনস্টল করার পর কিছু কনফিগারেশন ফাইলকে সঠিকভাবে সেটআপ করতে হয়, যাতে Hadoop সঠিকভাবে কাজ করতে পারে। নীচে কয়েকটি গুরুত্বপূর্ণ কনফিগারেশন ফাইল এবং তাদের সেটিংস সম্পর্কে আলোচনা করা হলো।

১. core-site.xml

এটি Hadoop এর কোর কনফিগারেশন ফাইল, যেখানে HDFS এবং YARN সম্পর্কিত প্রাথমিক কনফিগারেশন সেট করা হয়।

core-site.xml ফাইলটি /usr/local/hadoop/etc/hadoop/ ডিরেক্টরিতে পাওয়া যাবে। এই ফাইলে নীচের কনফিগারেশনটি যোগ করুন:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

এখানে, fs.defaultFS নির্দেশ করে যে HDFS-এর জন্য প্রধান নাম নোডের অ্যাড্রেস কেমন হবে। সাধারণত এটি hdfs://localhost:9000 রাখা হয়, যদি আপনি একটি single-node ক্লাস্টার সেটআপ করেন।

২. hdfs-site.xml

এই ফাইলটি HDFS সম্পর্কিত কনফিগারেশন সংরক্ষণ করে। এটি নিশ্চিত করে কিভাবে ডেটা ফাইল সিস্টেমে সংরক্ষণ হবে এবং ব্লক সাইজ এবং রিপ্লিকেশন ফ্যাক্টর কেমন হবে।

hdfs-site.xml ফাইলে নীচের কনফিগারেশনটি যোগ করুন:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.name.dir</name>
        <value>/usr/local/hadoop/hdfs/name</value>
    </property>
    <property>
        <name>dfs.data.dir</name>
        <value>/usr/local/hadoop/hdfs/data</value>
    </property>
</configuration>

এখানে, dfs.replication হল ব্লক রিপ্লিকেশনের সংখ্যা এবং dfs.name.dir এবং dfs.data.dir হল নাম নোড এবং ডেটা নোডের জন্য ডিরেক্টরি পাথ।

৩. mapred-site.xml

MapReduce সম্পর্কিত কনফিগারেশন এই ফাইলে রাখা হয়। যদি এই ফাইলটি না থাকে, তবে mapred-site.xml.template ফাইলটি কপি করে তৈরি করতে হবে।

cp mapred-site.xml.template mapred-site.xml

এরপর mapred-site.xml ফাইলে নিচের কনফিগারেশন যোগ করুন:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

এখানে mapreduce.framework.name কনফিগারেশনটি YARN ফ্রেমওয়ার্কে MapReduce কাজ চলানোর জন্য সেট করা হয়।

৪. yarn-site.xml

YARN সম্পর্কিত কনফিগারেশন এই ফাইলে রাখা হয়। এটি ResourceManager এবং NodeManager এর কনফিগারেশন সংরক্ষণ করে।

yarn-site.xml ফাইলে নিচের কনফিগারেশন যোগ করুন:

<configuration>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>localhost:8032</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

এখানে, yarn.resourcemanager.address সেট করে ResourceManager এর ঠিকানা।

Hadoop ফরম্যাট এবং চালানো

Hadoop কনফিগারেশনের পর, HDFS ফরম্যাট এবং Hadoop চালানোর জন্য নিচের কমান্ডগুলো ব্যবহার করা হয়:

১. HDFS ফরম্যাট করা:

hdfs namenode -format

২. Hadoop ক্লাস্টার শুরু করা:

start-dfs.sh
start-yarn.sh

৩. Hadoop ক্লাস্টার বন্ধ করা:

stop-dfs.sh
stop-yarn.sh

সারাংশ

Hadoop ইনস্টলেশন এবং কনফিগারেশন প্রক্রিয়া বেশ কিছু গুরুত্বপূর্ণ পদক্ষেপের সমন্বয়ে গঠিত। এর মধ্যে Java ইনস্টল করা, Hadoop সফটওয়্যার ডাউনলোড করা, এবং বিভিন্ন কনফিগারেশন ফাইল যেমন core-site.xml, hdfs-site.xml, mapred-site.xml এবং yarn-site.xml সঠিকভাবে কনফিগার করা অন্তর্ভুক্ত। একবার এই কনফিগারেশন সম্পন্ন হলে, Hadoop ক্লাস্টার চালু করা এবং ডেটা প্রসেসিং শুরু করা সম্ভব।

Content added By

Rezwan Siddiki Tamim

Hadoop ইনস্টলেশন (Single-node এবং Multi-node Cluster)

350

Hadoop ইনস্টলেশন প্রক্রিয়া বেশ কিছু ধাপে বিভক্ত, যেখানে আমরা দুটি প্রধান মডেল নিয়ে আলোচনা করবো: Single-node Cluster এবং Multi-node Cluster। Single-node cluster-এ সমস্ত কম্পোনেন্ট একটি একক মেশিনে রান করবে, আর Multi-node cluster-এ Hadoop এর বিভিন্ন কম্পোনেন্ট বিভিন্ন মেশিনে বিভক্ত থাকবে।

Single-node Cluster ইনস্টলেশন

Single-node cluster হ'ল এমন একটি পরিবেশ যেখানে Hadoop সমস্ত কম্পোনেন্ট একটি একক মেশিনে রান করে। এটি সাধারণত ডেভেলপমেন্ট, টেস্টিং এবং শিখতে ব্যবহৃত হয়।

1. Java ইনস্টলেশন

Hadoop Java প্রোগ্রামিং ভাষায় লেখা হয়েছে, তাই এটি কাজ করার জন্য Java ইনস্টল করা আবশ্যক।

Java ইনস্টল করতে নিচের কমান্ডটি ব্যবহার করুন:
```
sudo apt-get install openjdk-8-jdk
```
Java ইনস্টলেশনের পর, জাভা সংস্করণ চেক করতে:
```
java -version
```

2. Hadoop ডাউনলোড এবং ইনস্টলেশন

Hadoop এর সর্বশেষ ভার্সন ডাউনলোড করতে Apache Hadoop Download থেকে ZIP ফাইলটি ডাউনলোড করুন।
ZIP ফাইলটি আনজিপ করুন এবং আপনার পছন্দসই ডিরেক্টরিতে এটি রিনেম এবং স্থানান্তর করুন:
```
tar -xzvf hadoop-x.y.z.tar.gz
mv hadoop-x.y.z /usr/local/hadoop
```

3. Hadoop কনফিগারেশন

Hadoop এর কনফিগারেশন ফাইলগুলো সাধারণত etc/hadoop/ ফোল্ডারে থাকে। কনফিগারেশন সেট করতে নিচের ফাইলগুলোতে পরিবর্তন করতে হবে:

core-site.xml:
এই ফাইলে Hadoop এর ডিফল্ট ফাইল সিস্টেম সেট করুন।

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

hdfs-site.xml:
HDFS এর ডিরেক্টরি এবং ডেটা স্টোরেজ কনফিগার করুন।

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.name.dir</name>
    <value>/usr/local/hadoop/hdfs/namenode</value>
  </property>
  <property>
    <name>dfs.data.dir</name>
    <value>/usr/local/hadoop/hdfs/datanode</value>
  </property>
</configuration>

mapred-site.xml:
MapReduce কনফিগারেশন সেট করতে।

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

yarn-site.xml:
YARN কনফিগারেশন সেট করতে।

<configuration>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>localhost:8032</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>

4. Hadoop ফরম্যাট এবং শুরু করা

হাদুপ ফরম্যাট করতে:
```
hdfs namenode -format
```
Hadoop এর সিস্টেম চালু করতে:
```
start-dfs.sh
start-yarn.sh
```
সকল সার্ভিস স্ট্যাটাস চেক করতে:
```
jps
```

এখন আপনার Single-node Hadoop ক্লাস্টার প্রস্তুত।

Multi-node Cluster ইনস্টলেশন

Multi-node cluster হ'ল একটি বৃহত্তর পরিবেশ যেখানে Hadoop এর কম্পোনেন্ট একাধিক মেশিনে বিভক্ত থাকে। এটি সাধারণত প্রোডাকশন পরিবেশে ব্যবহৃত হয় এবং উচ্চ স্কেলড ডেটা প্রসেসিং নিশ্চিত করে।

1. প্রস্তুতি

সব মেশিনে একই Hadoop ভার্সন ইনস্টল করতে হবে।
সমস্ত মেশিনে SSH কনফিগার করতে হবে, যাতে এক মেশিন থেকে অন্য মেশিনে লগিন করা যায়।

2. Hadoop ইনস্টলেশন এবং কনফিগারেশন

প্রথমে প্রতিটি মেশিনে Hadoop ইনস্টল করুন এবং তারপর নীচের কনফিগারেশন ফাইলগুলো সেট করুন।

core-site.xml:
ক্লাস্টারের NameNode এর অবস্থান উল্লেখ করুন।

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://namenode_host:9000</value>
  </property>
</configuration>

hdfs-site.xml:
সকল মেশিনে HDFS ডিরেক্টরি এবং ডেটা স্টোরেজ সেট করুন।

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.name.dir</name>
    <value>/hadoop/hdfs/namenode</value>
  </property>
  <property>
    <name>dfs.data.dir</name>
    <value>/hadoop/hdfs/datanode</value>
  </property>
</configuration>

slaves ফাইল:
সমস্ত worker node এর নাম উল্লেখ করতে হবে।
```
slave1
slave2
slave3
```

3. Hadoop কনফিগারেশন শুরু করা

প্রতিটি নোডে start-dfs.sh এবং start-yarn.sh স্ক্রিপ্ট রান করুন।
```
start-dfs.sh
start-yarn.sh
```

4. Multi-node Cluster চালু করা

সব নোডে Hadoop চালু হওয়ার পরে, আপনি jps কমান্ড ব্যবহার করে প্রতিটি নোডের চলমান প্রক্রিয়াগুলি পরীক্ষা করতে পারবেন।

সারাংশ

Single-node এবং Multi-node Cluster ইনস্টলেশন পদ্ধতিতে, Hadoop এর ব্যবহারকারীরা বিভিন্ন পরিবেশে ডেটা প্রক্রিয়াকরণ কার্যক্রম পরিচালনা করতে পারেন। Single-node ক্লাস্টার ডেভেলপমেন্ট এবং টেস্টিংয়ের জন্য উপযুক্ত, যেখানে Multi-node ক্লাস্টার বৃহত্তর প্রোডাকশন স্কেল প্রয়োগের জন্য ব্যবহৃত হয়। Hadoop এর কনফিগারেশন, ডিস্ট্রিবিউটেড স্টোরেজ এবং প্রসেসিংয়ের জন্য সঠিক সেটআপ নিশ্চিত করা প্রয়োজন।

Content added By

Rezwan Siddiki Tamim

Hadoop Configuration Files (core-site.xml, hdfs-site.xml, yarn-site.xml)

285

Hadoop সিস্টেমের কার্যকরী পরিচালনার জন্য বিভিন্ন কনফিগারেশন ফাইল ব্যবহার করা হয়। এই ফাইলগুলো সিস্টেমের বিভিন্ন উপাদান এবং সেবার আচরণ নির্ধারণ করে। Hadoop এর প্রধান কনফিগারেশন ফাইলগুলির মধ্যে core-site.xml, hdfs-site.xml, এবং yarn-site.xml বিশেষভাবে গুরুত্বপূর্ণ। প্রতিটি ফাইলের নিজস্ব কনফিগারেশন সেটিংস থাকে, যা সিস্টেমের কাজের পরিবেশ নির্ধারণ করে। এই ফাইলগুলির সঠিক কনফিগারেশন Hadoop ক্লাস্টারের কার্যকারিতা এবং পারফরম্যান্সের জন্য অত্যন্ত গুরুত্বপূর্ণ।

core-site.xml

core-site.xml ফাইলটি Hadoop এর সাধারণ কনফিগারেশন ফাইল হিসেবে পরিচিত। এটি Hadoop এর মূল সিস্টেমের সাথে সম্পর্কিত সেটিংস ধারণ করে, যেমন HDFS এবং YARN এর সাথে যোগাযোগের জন্য URL এবং হোস্টনেম। এই ফাইলটি Hadoop এর সব সেবার জন্য সাধারিত কনফিগারেশন সেটিংস সংরক্ষণ করে।

গুরুত্বপূর্ণ কনফিগারেশন:

fs.defaultFS
এটি HDFS এর URI নির্ধারণ করে, যেখানে ডেটা সংরক্ষণ করা হয়। উদাহরণস্বরূপ, hdfs://namenode_host:8020।
উদাহরণ:
```
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://localhost:8020</value>
</property>
```
hadoop.tmp.dir
এটি Hadoop এর টেম্পোরারি ফাইল সংরক্ষণের জন্য ডিরেক্টরি নির্ধারণ করে। উদাহরণস্বরূপ, /tmp/hadoop।
উদাহরণ:
```
<property>
  <name>hadoop.tmp.dir</name>
  <value>/tmp/hadoop</value>
</property>
```

hdfs-site.xml

hdfs-site.xml ফাইলটি HDFS (Hadoop Distributed File System) এর কনফিগারেশন সেটিংস ধারণ করে। এই ফাইলের মাধ্যমে HDFS এর বিভিন্ন বৈশিষ্ট্য কনফিগার করা হয়, যেমন ব্লক সাইজ, রিপ্লিকেশন ফ্যাক্টর, এবং ডেটার সংরক্ষণ এবং ব্যবস্থাপনা।

গুরুত্বপূর্ণ কনফিগারেশন:

dfs.replication
এটি HDFS ব্লকের রিপ্লিকেশন ফ্যাক্টর নির্ধারণ করে, অর্থাৎ একটি ব্লকের কতগুলি কপি HDFS এর বিভিন্ন নোডে সংরক্ষণ করা হবে। ডিফল্ট মান ৩।
উদাহরণ:
```
<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>
```
dfs.block.size
এটি HDFS ব্লকের আকার নির্ধারণ করে। ডিফল্ট মান 128MB বা 256MB হতে পারে, তবে প্রয়োজন অনুসারে এটি পরিবর্তন করা যায়।
উদাহরণ:
```
<property>
  <name>dfs.block.size</name>
  <value>134217728</value>
</property>
```
dfs.namenode.name.dir
এটি Namenode এর মেটাডেটা সংরক্ষণের জন্য ডিরেক্টরি নির্ধারণ করে।
উদাহরণ:
```
<property>
  <name>dfs.namenode.name.dir</name>
  <value>file:/hadoop/hdfs/namenode</value>
</property>
```

yarn-site.xml

yarn-site.xml ফাইলটি YARN (Yet Another Resource Negotiator) এর কনফিগারেশন সেটিংস ধারণ করে। YARN হলো Hadoop এর রিসোর্স ম্যানেজার, যা ক্লাস্টারের রিসোর্স শিডিউলিং এবং ম্যানেজমেন্টে ব্যবহৃত হয়। এই ফাইলের মাধ্যমে YARN এর মূল সিস্টেম এবং নোড ম্যানেজারের কনফিগারেশন নির্ধারণ করা হয়।

গুরুত্বপূর্ণ কনফিগারেশন:

yarn.resourcemanager.address
এটি YARN এর Resource Manager এর হোস্ট এবং পোর্ট নির্ধারণ করে।
উদাহরণ:
```
<property>
  <name>yarn.resourcemanager.address</name>
  <value>localhost:8032</value>
</property>
```
yarn.nodemanager.local-dirs
এটি YARN Node Manager এর লোকাল ডিরেক্টরি নির্ধারণ করে, যেখানে এটি স্ন্যাপশট এবং লোগ ফাইল সংরক্ষণ করে।
উদাহরণ:
```
<property>
  <name>yarn.nodemanager.local-dirs</name>
  <value>/tmp/hadoop-yarn/local</value>
</property>
```
yarn.nodemanager.log-dirs
এটি YARN Node Manager এর লগ ডিরেক্টরি নির্ধারণ করে।
উদাহরণ:
```
<property>
  <name>yarn.nodemanager.log-dirs</name>
  <value>/tmp/hadoop-yarn/log</value>
</property>
```

সারাংশ

Hadoop এর কনফিগারেশন ফাইলগুলো অত্যন্ত গুরুত্বপূর্ণ, কারণ এগুলির মাধ্যমে সিস্টেমের বিভিন্ন উপাদান এবং কাজের পরিবেশ নির্ধারণ করা হয়। core-site.xml ফাইলটি Hadoop এর মূল কনফিগারেশন সেটিংস ধারণ করে, hdfs-site.xml ফাইলটি HDFS এর কনফিগারেশন পরিচালনা করে, এবং yarn-site.xml ফাইলটি YARN এর কনফিগারেশন ব্যবস্থাপনা করে। এই ফাইলগুলো সঠিকভাবে কনফিগার করা হলে, Hadoop ক্লাস্টার আরও কার্যকরভাবে এবং দক্ষতার সাথে কাজ করতে পারে।

Content added By

Rezwan Siddiki Tamim

Cluster Configuration এবং Management

449

Hadoop ক্লাস্টার কনফিগারেশন এবং ম্যানেজমেন্ট খুবই গুরুত্বপূর্ণ প্রক্রিয়া, কারণ সঠিক কনফিগারেশন এবং কার্যকরী ম্যানেজমেন্টের মাধ্যমে Hadoop ক্লাস্টারটি উচ্চ কার্যকারিতা, স্কেলেবিলিটি এবং স্থিতিশীলতা অর্জন করতে পারে। Hadoop ক্লাস্টার একটি বা একাধিক নোডে ভাগ করা হয়, যেখানে NameNode, DataNode, ResourceManager, NodeManager, এবং ApplicationMaster এর মতো গুরুত্বপূর্ণ উপাদানগুলি কাজ করে।

Hadoop ক্লাস্টার কনফিগারেশন

Hadoop ক্লাস্টারের কনফিগারেশন প্রক্রিয়া সঠিকভাবে নির্ধারণ করা অত্যন্ত গুরুত্বপূর্ণ, কারণ এটি সিস্টেমের পারফরম্যান্স, স্কেলেবিলিটি এবং আউটপুট দক্ষতার ওপর সরাসরি প্রভাব ফেলে। Hadoop ক্লাস্টারের প্রধান কনফিগারেশন ফাইলগুলি হলো:

core-site.xml

এই ফাইলটি Hadoop এর ফাইল সিস্টেম এবং নেটওয়ার্ক কনফিগারেশন সম্পর্কিত তথ্য ধারণ করে। এখানে HDFS এর মূল URI (Uniform Resource Identifier) এবং ক্লাস্টারের অন্যান্য কনফিগারেশন সেটিংস থাকে। উদাহরণস্বরূপ:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://namenode_host:9000</value>
    </property>
</configuration>

hdfs-site.xml

এই ফাইলটি HDFS এর কনফিগারেশন সম্পর্কিত। এটি NameNode এবং DataNode এর কাজ সম্পর্কিত নির্ধারণ করে, যেমন ডেটা ব্লক সাইজ, রিপ্লিকেশন ফ্যাক্টর ইত্যাদি। উদাহরণ:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.blocksize</name>
        <value>134217728</value>
    </property>
</configuration>

mapred-site.xml

এই ফাইলটি MapReduce সম্পর্কিত কনফিগারেশন ধারণ করে। এখানে MapReduce job এর জন্য বিভিন্ন সেটিংস নির্ধারণ করা হয়, যেমন JobTracker এর হোস্ট এবং পোর্ট।

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml

YARN (Yet Another Resource Negotiator) সম্পর্কিত কনফিগারেশন এখানে করা হয়। YARN ResourceManager, NodeManager ইত্যাদি কনফিগারেশনগুলি এই ফাইলে নির্ধারণ করা হয়।

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>resourcemanager_host</value>
    </property>
</configuration>

Hadoop ক্লাস্টার ম্যানেজমেন্ট

Hadoop ক্লাস্টার ম্যানেজমেন্টের জন্য বিভিন্ন টুল এবং পদ্ধতি ব্যবহৃত হয়, যার মাধ্যমে ক্লাস্টারের রিসোর্স ম্যানেজমেন্ট, টাস্ক শিডিউলিং, এবং ম্যানটেন্যান্স পরিচালনা করা হয়।

ক্লাস্টার মনিটরিং

ক্লাস্টারের পারফরম্যান্স এবং স্বাস্থ্যের উপর নজর রাখা অত্যন্ত গুরুত্বপূর্ণ। Hadoop এর জন্য বেশ কিছু মনিটরিং টুল রয়েছে, যেমন:

Ganglia: এটি Hadoop ক্লাস্টারের মেট্রিক্স মনিটর করার জন্য ব্যবহৃত হয়।
Nagios: এটি ক্লাস্টার এবং সিস্টেমের সুস্থতা এবং কর্মক্ষমতা ট্র্যাক করতে ব্যবহৃত একটি জনপ্রিয় টুল।
Ambari: এটি একটি গ্রাফিক্যাল ইউজার ইন্টারফেস (GUI) সরবরাহ করে এবং Hadoop ক্লাস্টারের ব্যবস্থাপনা এবং পর্যবেক্ষণ করার জন্য সহজ উপায় প্রদান করে।

ক্লাস্টার স্কেলিং

Hadoop ক্লাস্টারটি সহজেই স্কেল করা যায়। যখন ডেটার পরিমাণ বৃদ্ধি পায়, তখন নতুন নোড ক্লাস্টারে যুক্ত করা হয়। Hadoop এর ডিস্ট্রিবিউটেড আর্কিটেকচারের মাধ্যমে নোড যোগ করা হলে ক্লাস্টারের কর্মক্ষমতা বৃদ্ধি পায় এবং আরও বেশি ডেটা প্রসেস করা যায়।

ক্লাস্টার সিকিউরিটি

Hadoop ক্লাস্টারে সিকিউরিটি অত্যন্ত গুরুত্বপূর্ণ, বিশেষ করে যখন ক্লাস্টারে সংবেদনশীল ডেটা থাকে। Hadoop ক্লাস্টারের সিকিউরিটি কনফিগারেশন এর মধ্যে Kerberos authentication এবং Hadoop authorization ব্যবস্থাগুলি অন্তর্ভুক্ত থাকে।

ত্রুটি পুনরুদ্ধার (Fault Recovery)

ক্লাস্টার পরিচালনা করার সময় বিভিন্ন ত্রুটি হতে পারে। Hadoop ক্লাস্টারের ডিস্ট্রিবিউটেড ফাইল সিস্টেম এবং YARN এ built-in ফল্ট টলারেন্সের ব্যবস্থা থাকে, যা একটি নোডের ব্যর্থতার পর ডেটা বা কাজের পুনরুদ্ধার নিশ্চিত করে।

সারাংশ

Hadoop ক্লাস্টার কনফিগারেশন এবং ম্যানেজমেন্ট একটি দক্ষ Hadoop সিস্টেম পরিচালনার জন্য অপরিহার্য। সঠিক কনফিগারেশন ফাইল যেমন core-site.xml, hdfs-site.xml, mapred-site.xml, এবং yarn-site.xml এর মাধ্যমে ক্লাস্টারের কার্যকারিতা বৃদ্ধি করা হয়। ক্লাস্টারের পরিচালনা এবং রক্ষণাবেক্ষণের জন্য বিভিন্ন টুল যেমন Ganglia, Nagios, এবং Ambari ব্যবহৃত হয়, যা ক্লাস্টারের কর্মক্ষমতা এবং স্বাস্থ্যের উপর নজর রাখতে সহায়ক। Hadoop এর ডিস্ট্রিবিউটেড আর্কিটেকচার ক্লাস্টার স্কেলিং এবং ফল্ট টলারেন্সে সাহায্য করে, যা নিশ্চিত করে সিস্টেমের কার্যকারিতা ও স্থিতিশীলতা।

Content added By

Rezwan Siddiki Tamim

Hadoop এর জন্য SSH এবং Java Configuration

340

Hadoop সেটআপ করার জন্য কিছু প্রাথমিক কনফিগারেশন করতে হয়, যার মধ্যে SSH (Secure Shell) এবং Java কনফিগারেশন গুরুত্বপূর্ণ ভূমিকা পালন করে। সঠিকভাবে SSH এবং Java কনফিগার করা ছাড়া Hadoop ক্লাস্টার পরিচালনা করা সম্ভব নয়।

SSH কনফিগারেশন

Hadoop ক্লাস্টারের মধ্যে একাধিক মেশিনে কাজ করার জন্য SSH কনফিগারেশন অত্যন্ত গুরুত্বপূর্ণ, কারণ Hadoop এর নোডগুলোকে একে অপরের সাথে যোগাযোগ করতে হবে। SSH এর মাধ্যমে নোডগুলোর মধ্যে নিরাপদ সংযোগ স্থাপন করা হয় এবং Hadoop কমান্ড চালানোর জন্য রিমোট মেশিনে লগইন করা হয়।

SSH কনফিগারেশনের জন্য ধাপসমূহ:

SSH ইনস্টলেশন
প্রথমে, সিস্টেমে SSH ক্লায়েন্ট ইনস্টল করতে হবে। Linux বা Ubuntu সিস্টেমে SSH ইনস্টল করতে টার্মিনালে নিচের কমান্ডটি ব্যবহার করুন:
```
sudo apt-get install openssh-client
```
SSH কনফিগারেশন ফাইল তৈরি
হাদুপ ব্যবহারকারীর জন্য একটি SSH কী জেনারেট করতে হবে যাতে লগইন করতে পাসওয়ার্ডের প্রয়োজন না হয়:
```
ssh-keygen -t rsa -P ""
```
এরপর, .ssh/id_rsa.pub ফাইলের কনটেন্ট অন্য সিস্টেমে পেস্ট করতে হবে, যা authorized_keys ফাইলে যুক্ত হবে।
Public Key Distribution
ক্লাস্টারের প্রতিটি নোডে public key পেস্ট করতে হবে। একে অপরের মধ্যে SSH সংযোগের অনুমতি দেয়:
```
ssh-copy-id user@<hostname>
```
এই প্রক্রিয়াটি নিশ্চিত করবে যে, কোন পাসওয়ার্ড ছাড়াই এক নোড থেকে অন্য নোডে SSH এর মাধ্যমে সংযোগ স্থাপন করা যাবে।
SSH সংযোগ পরীক্ষা
সবকিছু সঠিকভাবে কনফিগার হওয়ার পর, আপনি ক্লাস্টারের অন্য নোডে SSH সংযোগ পরীক্ষার জন্য নিচের কমান্ডটি ব্যবহার করতে পারেন:
```
ssh user@<hostname>
```
যদি লগইন সফল হয়, তবে আপনি নিশ্চিত হতে পারবেন যে SSH কনফিগারেশন ঠিকঠাক হয়েছে।

Java কনফিগারেশন

Hadoop সম্পূর্ণরূপে Java-তে তৈরি, তাই Hadoop সঠিকভাবে কাজ করতে Java সেটআপের প্রয়োজন। Hadoop এর জন্য Java ভার্সন কনফিগারেশন গুরুত্বপূর্ণ, কারণ সঠিক Java ভার্সন ছাড়া Hadoop চলতে পারে না।

Java কনফিগারেশনের জন্য ধাপসমূহ:

Java ইনস্টলেশন
সিস্টেমে Java ইনস্টল না থাকলে, প্রথমে Java ইনস্টল করতে হবে। Ubuntu সিস্টেমে Java ইনস্টল করতে নিম্নলিখিত কমান্ড ব্যবহার করুন:
```
sudo apt-get update
sudo apt-get install openjdk-8-jdk
```
JAVA_HOME পরিবেশ ভেরিয়েবল সেট করা
Java ইনস্টল করার পরে, JAVA_HOME পরিবেশ ভেরিয়েবলটি সেট করা প্রয়োজন যাতে Hadoop সঠিকভাবে Java এর অবস্থান চিনতে পারে। .bashrc বা .profile ফাইলে নিম্নলিখিত লাইন যোগ করুন:
```
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
```
এরপর, .bashrc ফাইলটি রিলোড করতে হবে:
```
source ~/.bashrc
```
Java কনফিগারেশন পরীক্ষা
Java সঠিকভাবে ইনস্টল এবং কনফিগার হয়েছে কিনা তা পরীক্ষা করতে নিচের কমান্ডটি ব্যবহার করুন:
```
java -version
```
যদি সঠিক Java ভার্সন দেখায়, তবে আপনি নিশ্চিত হতে পারেন যে Java কনফিগারেশন সফল হয়েছে।
Hadoop Configuration ফাইল এ Java সেটিংস
Hadoop এর কনফিগারেশন ফাইলে Java এর অবস্থান নিশ্চিত করতে hadoop-env.sh ফাইলটি চেক করুন। এই ফাইলটি Hadoop এর ইনস্টলেশন ডিরেক্টরির মধ্যে থাকে ($HADOOP_HOME/etc/hadoop/hadoop-env.sh)।
hadoop-env.sh ফাইলে Java এর পাথ সঠিকভাবে সেট করুন:
```
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
```

সারাংশ

Hadoop ক্লাস্টারের সঠিক কার্যক্ষমতার জন্য SSH এবং Java কনফিগারেশন অত্যন্ত গুরুত্বপূর্ণ। SSH ক্লাস্টারের নোডগুলির মধ্যে নিরাপদ এবং পাসওয়ার্ড ছাড়া যোগাযোগ নিশ্চিত করে, যা Hadoop এর ডিস্ট্রিবিউটেড প্রসেসিং সিস্টেমের জন্য অপরিহার্য। Java কনফিগারেশন Hadoop এর রানের জন্য অপরিহার্য, কারণ Hadoop Java ব্যবহার করে। যথাযথ কনফিগারেশন ছাড়া Hadoop সঠিকভাবে কাজ করবে না, তাই এই ধাপগুলো অনুসরণ করা গুরুত্বপূর্ণ।

Content added By

Rezwan Siddiki Tamim

Hadoop এর পরিচিতি Hadoop Architecture এবং Ecosystem HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) MapReduce এর মৌলিক ধারণা

Hadoop Installation এবং Configuration

Hadoop Installation

১. প্রাথমিক শর্তাবলী পূরণ

২. Hadoop সফটওয়্যার ডাউনলোড করা

৩. পরিবেশ ভেরিয়েবল সেটআপ

Hadoop Configuration

১. core-site.xml

২. hdfs-site.xml

৩. mapred-site.xml

৪. yarn-site.xml

Hadoop ফরম্যাট এবং চালানো

১. HDFS ফরম্যাট করা:

২. Hadoop ক্লাস্টার শুরু করা:

৩. Hadoop ক্লাস্টার বন্ধ করা:

সারাংশ

Hadoop ইনস্টলেশন (Single-node এবং Multi-node Cluster)

Single-node Cluster ইনস্টলেশন

1. Java ইনস্টলেশন

2. Hadoop ডাউনলোড এবং ইনস্টলেশন

3. Hadoop কনফিগারেশন

4. Hadoop ফরম্যাট এবং শুরু করা

Multi-node Cluster ইনস্টলেশন

1. প্রস্তুতি

2. Hadoop ইনস্টলেশন এবং কনফিগারেশন

3. Hadoop কনফিগারেশন শুরু করা

4. Multi-node Cluster চালু করা

সারাংশ

Hadoop Configuration Files (core-site.xml, hdfs-site.xml, yarn-site.xml)

core-site.xml

গুরুত্বপূর্ণ কনফিগারেশন:

hdfs-site.xml

গুরুত্বপূর্ণ কনফিগারেশন:

yarn-site.xml

গুরুত্বপূর্ণ কনফিগারেশন:

সারাংশ

Cluster Configuration এবং Management

Hadoop ক্লাস্টার কনফিগারেশন

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

Hadoop ক্লাস্টার ম্যানেজমেন্ট

ক্লাস্টার মনিটরিং

ক্লাস্টার স্কেলিং

ক্লাস্টার সিকিউরিটি

ত্রুটি পুনরুদ্ধার (Fault Recovery)

সারাংশ

Hadoop এর জন্য SSH এবং Java Configuration

SSH কনফিগারেশন

SSH কনফিগারেশনের জন্য ধাপসমূহ:

Java কনফিগারেশন

Java কনফিগারেশনের জন্য ধাপসমূহ:

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!